paint-brush
सामान्य वीडियो पहचान क्या है?द्वारा@whatsai
864 रीडिंग
864 रीडिंग

सामान्य वीडियो पहचान क्या है?

द्वारा Louis Bouchard6m2022/09/09
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

हमने देखा है कि एआई टेक्स्ट जेनरेट करता है, फिर इमेज बनाता है और हाल ही में छोटे वीडियो भी बनाता है, भले ही उन्हें अभी भी कुछ सुधार की आवश्यकता है। परिणाम अविश्वसनीय होते हैं जब आप सोचते हैं कि कोई भी वास्तव में इन टुकड़ों की निर्माण प्रक्रिया में शामिल नहीं है और इसे केवल एक बार प्रशिक्षित किया जाना है ताकि हजारों लोगों द्वारा स्थिर प्रसार जैसे उपयोग किया जा सके। फिर भी, क्या ये मॉडल वास्तव में समझते हैं कि वे क्या कर रहे हैं? क्या वे जानते हैं कि उन्होंने अभी जो तस्वीर या वीडियो बनाया है, वह वास्तव में क्या दर्शाता है? ऐसा मॉडल क्या समझता है जब वह ऐसी तस्वीर या उससे भी अधिक जटिल वीडियो देखता है? वीडियो में और जानें... (सस्ता जानकारी वीडियो में भी!)
featured image - सामान्य वीडियो पहचान क्या है?
Louis Bouchard HackerNoon profile picture

हमने देखा है कि एआई टेक्स्ट उत्पन्न करता है, फिर चित्र बनाता है और हाल ही में लघु वीडियो भी बनाता है, भले ही उन्हें अभी भी कुछ सुधार की आवश्यकता है।

परिणाम अविश्वसनीय होते हैं जब आप सोचते हैं कि कोई भी वास्तव में इन टुकड़ों की निर्माण प्रक्रिया में शामिल नहीं है और इसे केवल एक बार प्रशिक्षित किया जाना है ताकि हजारों लोगों द्वारा स्थिर प्रसार जैसे उपयोग किया जा सके।

फिर भी, क्या ये मॉडल वास्तव में समझते हैं कि वे क्या कर रहे हैं? क्या वे जानते हैं कि उन्होंने अभी जो तस्वीर या वीडियो बनाया है, वह वास्तव में क्या दर्शाता है?

ऐसा मॉडल क्या समझता है जब वह ऐसी तस्वीर या उससे भी अधिक जटिल वीडियो देखता है? वीडियो में और जानें... (वीडियो में RTX GPU की सस्ता जानकारी भी है!)

संदर्भ

पूरा लेख पढ़ें:
https://www.louisbouchard.ai/सामान्य-वीडियो-पहचान/
नी, बी, पेंग, एच।, चेन, एम।, झांग, एस।, मेंग, जी।, फू, जे।, जियांग, एस। और
लिंग, एच।, 2022। सामान्य के लिए भाषा-छवि पूर्व प्रशिक्षित मॉडल का विस्तार
वीडियो पहचान। arXiv प्रीप्रिंट arXiv:2208.02816.
कोड: https://github.com/microsoft/VideoX/tree/master/X-CLIP
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!):
https://www.louisbouchard.ai/newsletter/

वीडियो प्रतिलेख

0:00

हमने एआई को टेक्स्ट जेनरेट करते देखा है

0:02

चित्र उत्पन्न करें और हाल ही में भी

0:05

लघु वीडियो उत्पन्न करें, भले ही वे

0:07

अभी भी काम की जरूरत है परिणाम हैं

0:09

अविश्वसनीय खासकर जब आप सोचते हैं

0:11

कि कोई भी वास्तव में इसमें शामिल नहीं है

0:13

इन टुकड़ों की निर्माण प्रक्रिया और यह

0:16

केवल तब तक एक बार में प्रशिक्षित किया जाना है

0:18

जैसे हजारों लोगों द्वारा उपयोग किया जाता है

0:20

स्थिर प्रसार अभी भी ये करते हैं

0:23

मोडल वास्तव में समझते हैं कि वे क्या हैं

0:25

क्या वे जानते हैं कि चित्र क्या है या

0:27

वीडियो उन्होंने अभी-अभी बनाया है

0:29

प्रतिनिधित्व करता है कि ऐसा मॉडल क्या करता है

0:31

ऐसी तस्वीर देखे तो समझो

0:34

या इससे भी अधिक जटिल वीडियो आइए ध्यान केंद्रित करें

0:36

दो और के अधिक चुनौतीपूर्ण पर

0:38

एआई वीडियो को कैसे समझता है, इसमें गोता लगाएँ

0:41

सामान्य वीडियो नामक कार्य के माध्यम से

0:44

मान्यता जहां लक्ष्य a . के लिए है

0:46

इनपुट के रूप में वीडियो लेने और उपयोग करने के लिए मॉडल

0:49

में क्या हो रहा है इसका वर्णन करने के लिए पाठ

0:51

वीडियो लेकिन पहले मुझे लगता है कि आप प्यार करेंगे

0:53

यह एपिसोड प्रायोजक और उनके पास क्या है

0:55

के लिए एक अद्भुत मुफ्त एआई कार्यक्रम की पेशकश करने के लिए

0:59

इस वीडियो में मैं स्केल ai के साथ साझेदारी कर रहा हूं

1:01

स्कैलिया इनमें से एक के पीछे की कंपनी है

1:04

दुनिया के अग्रणी एआई सम्मेलनों का रूपांतरण

1:07

x इस अक्टूबर 19 से 21वीं ट्रांसफॉर्मिक्स

1:11

20,000 से अधिक एआई और को एक साथ लाएगा

1:14

एमएल नेताओं दूरदर्शी चिकित्सकों और

1:16

उद्योगों में शोधकर्ताओं का पता लगाने के लिए

1:19

एआई और मशीन लर्निंग का संचालन

1:22

स्थानांतरण मिश्रण एक निःशुल्क आभासी घटना है और

1:24

कंपनियों के 120 स्पीकर होंगे

1:27

जैसे मेटा ओपनई डीपमाइंड गूगल ईटीसी

1:31

और भी बहुत कुछ मैं व्यक्तिगत रूप से सुनने के लिए उत्साहित हूँ

1:33

ग्रेग ब्रॉकमैन ओपनई के सह-संस्थापक से

1:36

और राष्ट्रपति और कोरी के वीपी

1:39

गहरे दिमाग में अनुसंधान और प्रौद्योगिकी दो

1:41

हमारे में सबसे महत्वपूर्ण कंपनियों में से

1:43

क्षेत्र भी वास्तव में होगा

1:45

शानदार से दिलचस्प वार्ता

1:46

फ्रेंकोइस जैसे क्षेत्र में योगदानकर्ता

1:49

शैले केरस के निर्माता कि मैं करूँगा

1:51

निश्चित रूप से ट्यून करें अपने को याद न करें

1:53

इस मुफ्त शिक्षा में भाग लेने का मौका

1:55

घटना यह पिछले साल एक बड़ी हिट थी और

1:58

आप के साथ गाना याद नहीं करना चाहते

2:00

में भाग लेने के लिए नीचे पहला लिंक

2:01

मेरे साथ ट्रांसफॉर्मिक्स सम्मेलन और

2:03

मेरे काम का समर्थन करें

2:06

सामान्य वीडियो पहचान

2:08

में सबसे चुनौतीपूर्ण कार्यों में से एक है

2:10

वीडियो को समझना फिर भी यह हो सकता है

2:13

किसी मॉडल की प्राप्त करने की क्षमता का सर्वोत्तम माप

2:15

क्या हो रहा है यह भी आधार है

2:17

a . पर निर्भर कई अनुप्रयोगों के पीछे

2:19

खेल जैसे वीडियो की अच्छी समझ

2:22

विश्लेषण या स्वायत्त ड्राइविंग लेकिन क्या

2:24

वहाँ इस कार्य को इतना जटिल बना देता है

2:27

दो चीजें हैं जिन्हें हमें समझने की जरूरत है

2:30

प्रत्येक फ्रेम या प्रत्येक का अर्थ क्या दिखाया गया है

2:33

एक विशेष वीडियो की छवि दूसरा हम

2:36

यह कहने में सक्षम होने की आवश्यकता है कि हम क्या

2:38

एक तरह से समझते हैं इंसान समझते हैं

2:41

जिसका अर्थ है सौभाग्य से शब्दों का उपयोग करना

2:44

हमें दूसरी चुनौती का सामना करना पड़ा है

2:46

भाषा समुदाय द्वारा कई बार

2:49

और हम उनके काम को और अधिक संभाल सकते हैं

2:51

ठीक हम वही ले सकते हैं जो लोग से

2:53

भाषा छवि क्षेत्र के साथ किया है

2:56

क्लिप या स्थिर जैसे मॉडल

2:58

प्रसार जहां आपके पास टेक्स्ट एन्कोडर है

3:01

और एक छवि एन्कोडर जो सीखता है

3:04

में दोनों प्रकार के इनपुट को एन्कोड करें

3:06

उसी तरह का प्रतिनिधित्व इस तरह आप

3:09

एक समान दृश्य की तुलना एक समान से कर सकते हैं

3:11

आर्किटेक्चर को प्रशिक्षित करके टेक्स्ट प्रॉम्प्ट

3:13

लाखों छवि कैप्शन उदाहरण के साथ

3:16

टेक्स्ट और इमेज दोनों वाले जोड़े

3:18

एक समान स्थान में एन्कोडेड शक्तिशाली है

3:20

क्योंकि इसमें बहुत कम जगह लगती है

3:22

संगणना करते हैं और यह हमें करने की अनुमति देता है

3:24

आसानी से अर्थ वाली छवियों से टेक्स्ट की तुलना करें

3:27

कि मॉडल अभी भी समझ में नहीं आता है

3:29

एक छवि या एक साधारण वाक्य भी लेकिन

3:32

यह कम से कम समझ सकता है अगर दोनों हैं

3:34

समान या नहीं हम अभी भी दूर हैं

3:37

बुद्धि लेकिन यह बहुत उपयोगी है

3:39

और ज्यादातर मामलों के लिए काफी अच्छा अब आता है

3:42

यहां सबसे बड़ी चुनौती के साथ वीडियो

3:44

और उसके लिए हम दृष्टिकोण का उपयोग करेंगे

3:47

बर्लिन मुझे और उनके सहयोगियों ने हाल ही में

3:49

कागज का विस्तार भाषा छवि

3:51

सामान्य वीडियो के लिए पूर्व-प्रशिक्षित मोडल

3:54

मान्यता वीडियो बहुत अधिक जटिल हैं

3:56

अस्थायी के कारण छवियों की तुलना में

3:58

सूचना का अर्थ है कई फ्रेम

4:01

और तथ्य यह है कि प्रत्येक फ्रेम जुड़ा हुआ है

4:03

अगले और पिछले एक के साथ

4:05

सुसंगत आंदोलन और कार्य मॉडल

4:08

यह देखने की जरूरत है कि इस दौरान पहले क्या हुआ था

4:10

और प्रत्येक फ्रेम के बाद एक उचित

4:13

दृश्य की समझ यह बस है

4:15

यूट्यूब की तरह आप वास्तव में 5 . को छोड़ नहीं सकते

4:18

आपके जैसे छोटे वीडियो में सेकंड आगे

4:20

इसमें बहुमूल्य जानकारी याद आएगी

4:23

मामले में वे प्रत्येक फ्रेम लेते हैं और उन्हें भेजते हैं

4:25

उसी छवि एन्कोडर में हम बस

4:27

एक दृष्टि ट्रांसफार्मर का उपयोग करके चर्चा की गई

4:30

उन्हें संसाधित करने के लिए आधारित वास्तुकला

4:32

ध्यान का उपयोग करते हुए एक संघनित स्थान यदि आप

4:35

दृष्टि से परिचित नहीं हैं

4:36

ट्रांसफार्मर या ध्यान तंत्र

4:39

मैं आपको वीडियो देखने के लिए आमंत्रित करूंगा I

4:40

एक बार आपके पास होने के बाद उनका परिचय दिया

4:43

प्रत्येक फ्रेम के लिए प्रतिनिधित्व जो आप कर सकते हैं

4:45

एक समान ध्यान-आधारित प्रक्रिया का उपयोग करें

4:47

प्रत्येक फ्रेम एक साथ संवाद करें और

4:50

अपने मॉडल को सूचनाओं के आदान-प्रदान की अनुमति दें

4:52

फ्रेम के बीच और एक फाइनल बनाएं

4:55

वीडियो के लिए प्रतिनिधित्व यह

4:57

फ्रेम के बीच सूचना का आदान-प्रदान

4:59

ध्यान का उपयोग किसी प्रकार के रूप में कार्य करेगा

5:02

आपके मॉडल को समझने के लिए स्मृति

5:04

एक जोड़े के बजाय एक पूरे के रूप में वीडियो

5:06

यादृच्छिक छवियां एक साथ अंत में हम उपयोग करते हैं

5:09

विलय करने के लिए एक और ध्यान मॉड्यूल

5:11

हमारे पास मौजूद फ़्रेमों की टेक्स्ट एनकोडिंग

5:14

हमारे संघनित वीडियो प्रतिनिधित्व

5:17

और वोइला यह एक तरह से एक है

5:20

निश्चित रूप से एक वीडियो को समझता है यह था

5:23

द्वारा इस महान पेपर का एक सिंहावलोकन

5:25

Microsoft अनुसंधान एक के रूप में कार्य कर रहा है

5:27

वीडियो पहचान का परिचय i

5:30

आपको उनके पेपर को पढ़ने के लिए आमंत्रित करते हैं a

5:32

उनके दृष्टिकोण की बेहतर समझ i

5:34

घोषणा करते हुए भी खुशी हो रही है

5:36

अगले nvidia gtc . के लिए एक और सस्ता

5:39

19 सितंबर से सितंबर तक की घटना

5:42

22वां एनवीडिया मुझे एक बार फिर दे रहा है

5:45

इसे देने के लिए rtx 3080 ti

5:48

आप में से उन लोगों के लिए समुदाय

5:50

घटना केवल दो चीजें जो आपको करनी हैं

5:53

जीतने का मौका पाने के लिए हैं

5:55

चैनल को सब्सक्राइब करें और मुझे डीएम करें

5:57

आपके द्वारा किए जाने वाले टोलों में से एक का स्क्रीनशॉट

5:59

कार्यक्रम के दौरान शामिल होने का फैसला

6:02

यह देखने के लिए धन्यवाद

6:04

मेरे दोस्तों को वीडियो और हार्दिक धन्यवाद

6:06

मुझे आशा है कि वीडियो को प्रायोजित करने के लिए स्केल एआई

6:09

वस्तुतः आपको उनके निःशुल्क कार्यक्रम में देखने के लिए

6:11

शीघ्र ही और मैं आपको अगले सप्ताह देखूंगा

6:13

एक और अद्भुत कागज के साथ

[संगीत]